Rephrase and Respond論文
https://scrapbox.io/files/65b12d670944aa00258be8fa.png
論文情報
タイトル:Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves
発行日:2023年11月
著者:Yihe Deng, Weitong Zhang, Zixiang Chen, Quanquan Gu
所属: University of California
論文を読んで感じたこと
日常生活や仕事でも、コミュニケーションエラーが発生している
同じメッセージなのに、異なったように解釈されることが多々ある
これらは、認知バイアスからくる思考の枠組みの違いである
これを防ぐには、何か依頼されたら、「それってこういうことで合ってる?」と言い換えることで、コミュニケーションエラーを防げる
これをプロンプトにしたということで、納得がいく
1step RaRでもGPT-4の推論をはるかに強化するのはすごい。(Figure 5)
2-stepより使い勝手いいし、6/10のタスクで2-step上回る...!
複数回言い換えをさせることで、正解することもある(3.4)
https://scrapbox.io/files/65b20938136abb0024fea119.png
また、CoTで変な例をつけてしまうと、精度が落ちる
https://scrapbox.io/files/65b212752a50670026c86db9.png
論文ポイント
マザー・テレサは偶数月に生まれましたか?」という問いに対し、GPT-4は「8月に生まれたから、奇数月だ」と回答する
この根本的な原因を、質問の曖昧さだと主張している。
https://scrapbox.io/files/65b1c403a71b78002427e5b5.png
例えば、偶数/奇数の月を偶数/奇数の日数を持つ月とみなすなど
これらの曖昧さは、LLMが意図しないクエリに対して誤った回答を提供する原因となる
コインを投げることも、反転させることなのに、ランダムに投げることとLLMが考えてしまう(この例は説明に使える)
これは、人間とLLMの思考の枠組みには不一致が存在することが原因
LLMに質問を言い換えさせ、より良い回答のために追加の詳細を取り入れる
質問を言い換えることで、実際に精度が上がっている
https://scrapbox.io/files/65b1c7de4059d20024e4daae.png
RaRはとってもお手軽で、すべての質問に適用可能。そして経済的。
https://scrapbox.io/files/65b1e6f6e32b3200242e2233.png
1-stepでも十分有効
というか、10のタスク中6つで、2-step RaRを上回っている
https://scrapbox.io/files/65b1e91a82dbd900269688ad.png
https://scrapbox.io/files/65b1eae7c1c790002524fbc7.png
2-step RaRだが、CSQAとスポーツ以外のタスクで、精度を向上させている
CoTにおいて、例を提示するのはuserがやることだが、ここに不適切な例を1つでも入れてしまうと、精度が大きく下がってしまうことを立証した
https://scrapbox.io/files/65b2137acfd7980023e5f016.png
この例示の品質管理が、かなり難しそう。
だからこそ、RaRとCoTを併用することがめちゃ大事。
実際に使うには
1stepの場合
code: md
Q:{質問}
質問を言い換えて、拡張し、そして答えてください。
https://scrapbox.io/files/65b1cad3d94f2d002aec72b7.png
2stepの場合は
code:md
"{question}"
上記の質問を言い換えて、より良い回答をするために拡張してください。元の質問のすべての情報を維持してください
次に、元の質問と言い換えた質問を組み合わせて、次のプロンプトで応答LLMに提示します:
code:md
{question} //original
{rephrased_question} //上の回答
言い換えた質問の回答を使って元の質問に答えてください。
https://scrapbox.io/files/65b1cdbe333ac10024225306.png
code:markdown
上記の質問を考慮して、より良い回答ができるように質問を言い換えて拡張し、最後にステップバイステップで答えてみましょう
実用を考えると、1stepが手頃で、こちらを使うか。
これは様々なタスクにも使えるため、custom instructionsにもセットできそう。
概要
個人の間でのコミュニケーションだけでなく、人間と大規模言語モデル(LLM)の間でも誤解が生じることがあります。このような相違は、LLMが一見曖昧でない質問を予期せぬ方法で解釈し、誤った回答をもたらすことがあります。質問の品質がLLMによって提供される回答の品質に大きく影響することは広く認識されていますが、LLMがより理解しやすい質問を作成するための体系的な方法はまだ未発達です。本論文では、人間によって提起された質問を言い換え、拡張し、単一のプロンプトで回答を提供する「言い換えて応答する」(RaR)という方法を紹介します。このアプローチは、性能向上のためのシンプルで効果的なプロンプティング方法として機能します。また、言い換えたLLMが最初に質問を言い換え、その後元の質問と言い換えた質問の両方を異なる応答をLLMに渡す二段階のRaRも導入します。これにより、あるLLMによって生成された言い換えた質問を別のLLMで効果的に利用することが可能になります。私たちの実験では、様々なタスクにおいて異なるモデルの性能が大幅に向上することを示します。さらに、理論的および実証的にRaRと人気のあるChain-of-Thought(CoT)方法との包括的な比較を行います。RaRはCoTと補完的であり、CoTと組み合わせることでさらに良い性能を達成できることを示します。私たちの研究は、LLMの性能を効率的かつ効果的に向上させるだけでなく、LLMの能力の公正な評価に光を当てるものです。
1 はじめに
個人の間でのコミュニケーションにおける誤解は、異なる主観的経験によって形成された個人が、同じメッセージを異なる方法で解釈する際にしばしば生じます。社会科学において、このような現象は思考の枠組みにおける認知バイアスに起因するとされています(Druckman, 2001)。枠組みは、個人の解釈のスキームを表し、入力に対する理解と応答を可能にします(Erving, 1974)。異なる方法で枠組み化された単一のメッセージは、個人を異なる結論に導きます。人々は習慣的に自身の情報に対して自身の枠組みを投影し、不一致が生じた場合にのみこれらの枠組みを変更します。最近、GPTシリーズ(Radford et al., 2019; Brown et al., 2020; OpenAI, 2023)などの大規模言語モデル(LLM)は、質問応答(Lu et al., 2023)、コード生成(Poesia et al., 2022)、会話エージェント(Bozkurt, 2023)など、様々な実世界のアプリケーションへの深い影響により、人気を博しています。これらのモデルの広範な適用性と効果により、LLMの使用に関する理解と改善に関する研究が急速に進んでいます。本研究では、LLMも独自の思考の枠組みを示し、人間とLLMが使用する枠組みの間に不一致が観察されることが珍しくないという立場を取ります。人間によって生成されるプロンプトの品質がLLMの応答品質に大きな影響を与えることが広く認められており、特定性、詳細性、精密性を優先する効果的なクエリの重要性が強調されています(OpenAI, 2022)。しかし、個々のユニークな思考の枠組みのために、人間にとって自分の質問の明確さを評価し、それらの枠組みをLLMの枠組みと整合させることは困難です。これを説明するために、最近の研究(Allen-Zhu and Li, 2023)を詳しく調査することから始めます。
動機付けの例
Allen-Zhu and Li(2023)では、著者たちは重要な発見を報告しています:GPT-4などのLLMは、情報を正確に取得できる場合でも、その内部知識を効率的に推論することができないかもしれません。Figure 1に示されているように、「マザー・テレサは偶数月に生まれましたか?」という問いに対して、GPT-4は8月を奇数月だと誤って主張することがあります。この観察に基づいて、Allen-ZhuとLi(2023)は、GPT-4は、前回の誤った回答を修正するために、ユーザー主導のフォローアップ質問に依存するChain-of-Thoughtプロセスを必要とすると提案しました。フォローアップ質問「偶数の意味を知っていますか?」に対して、GPT-4は自身を修正します。しかし、私たちはさらに一歩進んで、このような質問に対するLLMの非効率性の根本的な理由を調査します。Figure 1の他の3つの会話で示されているように、GPT-4がその推論を説明するとき、モデルは質問に対していくつかの曖昧さを持っているようです。たとえば、不規則な日数のために2月を奇数とみなしたり、偶数/奇数の月を偶数/奇数の日数を持つ月とみなすことがあります。 https://scrapbox.io/files/65b1c403a71b78002427e5b5.png
質問の曖昧さはベンチマークデータセットにおける認識された懸念事項です。例えば、MultiNLI(Williams et al., 2018)のようなNLIデータセットには、人間の解釈者にとっても挑戦的な曖昧さが含まれていることが観察されています(Liu et al., 2023)。さらに、我々の研究では、LLM評価に一般的に使用されるベンチマークデータセット(Wei et al., 2022; bench authors, 2023)には、人間には知覚できないが言語モデルにとっては困難な曖昧さが存在することが明らかになりました。これらの曖昧さは、LLMが意図しないクエリに対して誤った回答を提供する原因となります。この問題に対処するためには、曖昧さを減らし、LLMの既存の枠組みと整合する方法で情報を文脈化することが不可欠です。
私たちのアプローチ
本論文では、LLMに関する研究でしばしば見落とされがちな側面、すなわち人間とLLMの思考枠組みの不一致を強調しています。私たちの研究は、この不一致がLLMの性能に大きな影響を与えることを示しています。この問題に対処するために、LLMに質問を言い換えさせ、より良い回答のために追加の詳細を取り入れることを提案します。人間によって無造作にされた質問とは対照的に、言い換えられた質問は意味の明瞭さを向上させ、固有の曖昧さを解決するのに役立つことが観察されます。たとえば、Allen-ZhuとLi(2023)における分類質問は短い傾向があります。LLM自体による言い換えの後、新たに生成された質問はより詳細で、より明確な質問形式を持っています(Figure 2参照)
https://scrapbox.io/files/65b1c7de4059d20024e4daae.png
この自己言い換え技術は、Allen-ZhuとLi(2023)と比較して、精度の顕著な向上につながります(Figure 2の棒グラフ参照)。GPT-4は確かに元の質問を難しいと見なしていましたが、それが生成した言い換えられた質問に効果的に回答する能力を示しています。
これらの洞察に基づいて、私たちは「言い換えて応答する」(Rephrase and Respond (RaR))と呼ばれる方法を紹介します。これは、LLMに与えられた質問を言い換え、単一のプロンプトで応答するよう促します。単純なRaRプロンプトに加えて、私たちは二段階RaRと呼ばれる変種も提示します。二段階RaRは、言い換え用LLMを使用して言い換えられた質問を生成し、これを任意の応答LLMに利用可能にします。さまざまな推論タスクに関する我々の実証的結果は、両アプローチの有効性を示しています。特に、二段階RaRは、より能力のあるLLMからの言い換えられた質問を、より進歩していないモデルに対して明確にするための移行を促進します。 私たちはまた、CoT (Chain-of-Thought)との理論的および実証的比較を提示します。一方では、CoTのように、RaRはAPIサービスを介して操作する現在の強力なGPT-3.5/4のブラックボックス性質と互換性があります。一方、CoTはクエリの最初または最後の拡張に焦点を当てているのに対し、RaRはクエリ自体を直接変更します。したがって、RaRはCoTと補完的であり、私たちの実験結果によって確認されたように、改善のために簡単に組み合わせることができます。さらに、精度スコアに基づいて複数のLLMを使用する反復的なプロンプトエンジニアリング手法(Zhou et al., 2022b; Pryzant et al., 2023)とは異なり、私たちの方法は監視されておらず、トレーニングフリーであり、すべての質問に適用可能で経済的です。最後に、特定のLLM機能をターゲットとする人間によって作られたタスクの設計が、意図の明確さを保証するために、人間とLLMの両方によって厳格にレビューされるべきであるという重要性を私たちの作業は提起しています。 この論文の残りの部分は次のように構成されています。セクション2では、RaRメソッドを詳細に紹介します。これには、ワンステップRaR(セクション2.1)とツーステップRaR(セクション2.2)が含まれます。セクション3では、RaRメソッドの広範な実証的評価を提示します。これには、様々なベンチマークタスク(セクション3.1)、GPT-4でのパフォーマンス(セクション3.2)、および他のGPTモデル(セクション3.3)が含まれます。また、このセクションでは、複数の言い換えプロセスの使用(セクション3.4)についても議論します。セクション4では、理論的および実証的に、詳細にRaRとCoTを比較します。関連する作品についてはセクション5で議論され、セクション6で結論が出されます。
2 言い換えて回答する
このセクションでは、我々が提案する方法を詳細に紹介します。これには、質問を自分で言い換えさせることでLLMからより良い回答を促進するための2つの主要なアプローチ、すなわちワンステップRaRとツーステップRaRが含まれます。
以下の説明のために、単純化のため、特別な区別が必要でない限り、RaRをワンステップRaRを指すものとします。
2.1 ワンステップRaR:単一のプロンプトで言い換えて応答する
対人コミュニケーションでは、言い換えは一般的に知られた技術です。人々は、理解のプロセスとして、他の人の質問を言い換えて、応答の明確さと一貫性を確保します。このようなコミュニケーション戦略は、LLMにも同様に適用でき、まず言い換えた質問を生成し、その後回答を提供することができます。この直感に従って、LLMに質問を言い換えて応答させるようにRaRを提案します。このアプローチは、LLMの応答の品質を直接向上させる戦略と見なすことができます。詳細には、質問応答のために以下のプロンプトを導入します。実験で示すように、GPT-4はRaRプロンプト(2.1)を使用することで、幅広いタスクにおいてはるかに優れた結果を達成でき、特にLLMにとって曖昧さを示す人間製のデータセットにおいて顕著です。
https://scrapbox.io/files/65b1cad3d94f2d002aec72b7.png
2.2 二段階RaR:質問を言い換え、言い換えた質問に対して応答する
GPT-4のような大型モデルによって言い換えられた質問の品質向上をさらに活用するために、二段階RaRと呼ばれるRaRのバリエーションを導入します。直感的にも、人間の間でも、より詳細で正確な質問はより正確で決定的な回答を引き出します。二段階RaRは、この直感に従って、質問の品質を向上させるための二段階手順を設計します:最初のステップでは、与えられたクエリ質問に対して、次のプロンプトで言い換えLLMを促して、自己言い換えクエリrephrased_questionを生成します:
code:md
"{question}"
上記の質問を言い換えて、より良い回答をするために拡張してください。元の質問のすべての情報を維持してください
次に、元の質問と言い換えた質問を組み合わせて、次のプロンプトで応答LLMに提示します:
code:md
{question} //original
{rephrased_question} //上の回答
言い換えた質問の回答を使って元の質問に答えてください。
https://scrapbox.io/files/65b1cdbe333ac10024225306.png
注目すべき点として、言い換えLLMと応答LLMは、同じモデルでも異なるモデルでも構いません。後で実験で示すように、異なるLLMは質問の言い換えにおいて異なる習熟度を示します。特に、GPT-4によって言い換えられた質問は、Vicunaのような弱いLLMがより正確な回答を生成するのに役立ちます。 この応答品質の向上は、LLMの公正な評価のためにベンチマークデータセットを改善するために活用されることができます:人間によって作成された既存のベンチマークデータセットは、さまざまな推論スキルにわたるLLMのパフォーマンスを評価するために設計されています。しかし、Figure 2の私たちの例で示されているように、これらの質問はLLMの特定の能力を完全に示すために必要な明確さを欠いているかもしれません。二段階RaRの「言い換え」ステップにより、質問の品質を普遍的に向上させ、より公正な比較を可能にすることができます。
さらに、ワンステップRaRのプロンプトと比較して、二段階バージョンでは、ユーザーの質問を含めることで元のコンテキストを維持しながら、より良い理解を助けるためにLLMによって言い換えられた質問を追加します。これにより、LLMが元の質問から逸脱する可能性を防ぎます。
3 RaRはLLMの応答を効果的に改善します
このセクションでは、RaRの適用性と効果に関する包括的な評価を提供します。結果は4つの主要な次元で提示されます:
(1)ワンステップRaRは、LLMのパフォーマンスを改善するためのシンプルで効果的なプロンプトです。
(2)二段階RaRは、さまざまなタスクにわたってGPT-4の応答精度を効果的に向上させます。
(3)LLMはすべて二段階RaRから恩恵を受けますが、質問の言い換えにおける習熟度は異なります。
(4)弱いLLMは、強いLLMによって言い換えられた質問からより多くの恩恵を受けることができます。
3.1 ベンチマークタスク
まず、私たちの方法を評価するために使用するベンチマークタスクを紹介します。
タスク
私たちは、異なるカテゴリーの複数のベンチマークタスクにわたってLLMの能力を評価します。
知識分類(Allen-Zhu and Li、2023)
ウィキペディアのページを持つ個人のプールからサンプリングし、そのLLMに有名人が偶数日、月、または年に生まれたかどうかを決定することを挑戦します。
知識比較(Allen-Zhu and Li、2023)
同じ個人のプールを使用して、このタスクはLLMに2人の人物の年齢を比較し、誰が早く生まれたかを決定するよう指示します。
GPT-4がこれらの質問の多くに不十分に応答していることから、GPT-4が知識の取得に長けているにもかかわらず、自身の知識を用いた推論において遅れを取っているのではないかという懸念が生じます。さらに、我々はWei et al.(2022)でも考慮されている以下の広く使用されているデータセットを、包括的な評価のために検討します。 Big-benchからのデータで、Date Understandingタスクは、与えられたコンテキストから日付を推測する常識的な推論を強調します。このタスクもWei et al.(2022)で検討されています。私たちは、潜在的な答えの選択肢を提供せず、LLMに直接答えさせるより困難なバージョンを考慮します。 このタスクは象徴的な推論に焦点を当て、与えられた名前のリストの最後の文字を連結するようにLLMに依頼します。我々は、2つの名前だけでなく、4つの名前の連結についても検討します。
Hugging Faceからのデータで、このタスクは、コインの初期状態と、コインを裏返したり裏返さなかったりした人々の後続の行動を考慮して、コインがまだ表向きかどうかをLLMに尋ねます。我々は質問に「裏返すとは逆を意味する」という追加の文を加えます。
Big-bench からのデータで、Sports Understandingタスクは主に、著名なスポーツ選手が特定のスポーツ関連行動を行っている場面について、文が妥当かそうでないかを問います。 https://scrapbox.io/files/65b1e61a408653002567fc45.png
Date Understandingの全データセットを使用し、他のタスクでは220のサイズのサブセットをランダムに抽出します。LLMのパフォーマンスを評価するためにAccuracyを使用します。正確性はまず、LLMによって生成された単語の正確なマッチングを使用して推定されます。具体的には、回答が正しい回答の正確な単語を含み、誤った回答を含まない場合、正しいと見なされます。その後、手動検査を通じて計算を確認し、修正します。特定のタスクでは、応答形式を制約するため(例えば、多肢選択)、元の質問とRaRの評価時に一貫したプロンプトを追加します。例:「最も適切な答えを1つ選んでください」。プロンプトの詳細は付録Aの表8に示されています。 https://scrapbox.io/files/65b1e6541f3acb002554acb7.png
3.2 GPT-4のパフォーマンス
我々は、GPT-4を使用して、前述のベンチマークデータセットで実験を行います。これにはワンステップRaRとツーステップRaRの両方が含まれます。Figure 5に示されているように、ワンステップRaRとツーステップRaRの両方が、元の質問を使用する場合と比較して優れたパフォーマンスを発揮します。この結果については後で詳しく議論します。 https://scrapbox.io/files/65b1e6f6e32b3200242e2233.png
3.2.1 RaR:LLMパフォーマンスを改善するシンプルなプロンプト
私たちは、LLMが1つのクエリで質問を言い換えてから応答することを可能にするRaRのパフォーマンスを調査します。このようなアプローチは、任意の質問に対するLLMのパフォーマンスを改善するためのシンプルなブラックボックス戦略と見なすことができます。
Figure 5と付録Aの表7で詳述されているように、我々はワンステップRaR(つまり、1つのプロンプトで質問を言い換えて答える)とツーステップRaR(事前に言い換えられた質問に別々のクエリで答える)を使用したGPT-4の正確性を比較します。特筆すべきは、ワンステップRaRがGPT-4の正確性を向上させ、10のタスク中6つでツーステップRaRを上回っていることです。確かに、人間のコミュニケーションと同様に、質問を言い換えて詳述した後に回答することは効果的なアプローチです。この実験からの主要な教訓は以下に強調されています。
https://scrapbox.io/files/65b1e91a82dbd900269688ad.png
教訓#1
1-step RaRは、一般的なタスクにおいてLLMのパフォーマンスを効率的かつ効果的に向上させるための汎用的なプラグアンドプレイのブラックボックスプロンプトを提供します。
3.2.2 2-step RaR:言い換えた質問が応答品質を向上させる
我々は、2-step RaRを使用して質問の品質向上を評価します。詳細には、GPT-4が外部介入なしにプロンプト(2.2)を使用して自動的に言い換えた質問を生成します。
https://scrapbox.io/files/65b1ea1e4b9fd0002349b15c.png
その後、言い換えた質問を元の質問と組み合わせて(2.3)を使用してGPT-4にプロンプトします。
https://scrapbox.io/files/65b1ea26c33202002547c7b3.png
Figure 5に示されているように、我々はツーステップRaRを使用したGPT-4の正確性を元の質問を使用したGPT-4と比較します。LLMの能力の異なる側面を強調する幅広いタスクにわたって、ツーステップRaRはGPT-4のために一貫して顕著な改善をもたらします。特に、GPT-4が元々非常に困難であると判断していたタスク(例えば、最後の文字の連結)において、2段階RaRは著しい改善を示し、ほぼ100%の精度に達することもあります。精度の数値的な詳細は、付録Aの表7に示されています。
この実験から以下のポイントを結論します。
ポイント#2
LLMのQAタスクにおけるパフォーマンスを評価する際には、問題の質を検討することが重要です。
2段階RaRは、質問を言い換えることによってLLMが問題の質を自律的に改善するための汎用的な方法を提供します。
3.3 様々なLLMのパフォーマンス
さらに、RaRの様々なLLMにおけるパフォーマンスを調査します。具体的には、GPT-3.5やVicuna(Chiang et al.、2023)を含むLLMに対して2段階RaRを使用し、(1)これらのLLMが質問を言い換えることで一貫した回答の改善を提供できるか、および(2)GPT-4によって言い換えられた質問が他のLLMのパフォーマンスを向上させるかどうかを検討します。 3.3.1 すべてのLLMは質問を言い換えられるか?
異なるLLMの言い換え能力を調査するために、2段階RaRを使用して言い換えられた質問の質を調査します。GPT-4-0613、GPT-3.5-turbo-0613、Vicuna-13b-v1.5を含むいくつかの異なるLLMのパフォーマンスを2段階RaRを使用して評価します。実験結果はFigure 6に示されています。
https://scrapbox.io/files/65b1eabfaa93f50025110fb4.png
Vicuna-13b-v1.5の最後の文字の連結(4)におけるほぼゼロのパフォーマンスのため、このタスクはVicuna-13b-v1.5の評価から除外されています。注目すべきは、調査されたすべてのLLMが2段階RaRを使用することでパフォーマンスが向上し、ほとんどのタスクにおいて精度が顕著に増加したことです。より高度なモデルであるGPT-4は、すべてのタスクにおいて最も大きな利益を得る一方で、Vicunaのような複雑性の低いモデルは、私たちのアプローチを使用して控えめな改善を達成します。CSQAやスポーツなどの特定のタスクでは、GPT-3.5とVicunaはわずかにパフォーマンスが低下することさえあります。表2では、異なるモデルによって自己言い換えられた特定の例を詳細に検討します。初期の観察では、Vicuna-13b-v1.5の言い換えられた質問は、元の質問の単純さを反映しており、ほとんど大きな明確化を提供していないことが示唆されています。表2の最後の例では、Vicuna-13b-v1.5は「昨日」を「今日」に変えることで質問の意図を妨げています。GPT-3.5とGPT-4は両方とも質問を明確にすることができますが、GPT-3.5は時々余分な詳細を導入したり、誤解を招くことがあります。例えば、表2の2番目の例では、GPT-3.5は偶数の月を「日数が偶数の月」と誤解しています。同様に、3番目の例では、「最近の」ゲームという間違った制約を導入しています。それに対してGPT-4は、ほとんどの場合人間の意図に近い明確化を行うことができます。また、GPT-3.5はスポーツ(220のうち45)や日付(369のうち21)の言い換えられた質問に「回答の精度を高めるために必要に応じて追加の詳細を提供してください」というフレーズを導入する傾向がありますが、これは実際の答えではなく別の言い換えられた質問になってしまいます。したがって、これら2つのデータセットについてはGPT-3.5で「言い換え」という文をすべて削除します。
この実験を以下の重要な洞察で締めくくります。
ポイント
すべてのモデルは質問の言い換えから利益を得ることができ、より高度なモデルはより大きな改善が期待されます。
3.3.2 言い換えられた質問は転送可能か?
ここでは、2段階RaRによって生成された言い換えられた質問が異なるLLM間で転送可能かどうかを検討します。特に、GPT-4によって生成された言い換えられた質問がVicunaのパフォーマンスを向上させることができるかどうかを知りたいと考えています。表3では、GPT-4によって言い換えられた質問に対するVicuna-13b-v1.5のパフォーマンスを、自己言い換えられた質問と比較して詳述しています。GPT-4が人間の意図とより一致し、質問を明確にすることができるという私たちの期待に沿って、その言い換えられた質問はVicuna-13b-v1.5のいくつかのタスクにおけるパフォーマンスを顕著に向上させます。特にVicunaの自己言い換えられた質問が低品質である場合には特にそうです。実際には、Vicunaに対して質問をさらに明確にすることができますが、自己言い換えられた質問の能力に関するさらなる探求が必要です。この実験を以下の重要なメッセージで締めくくります。
ポイント
GPT-4による質問の言い換えは転送可能です:GPT-4によって言い換えられた質問は、Vicunaでの回答の質を向上させることができます。
3.4 複数の言い換え: 質問は収束するのか?
この小節では、GPT-4による反復的な自己言い換えが、Two-step RaRを使用する際に一貫した明確化をもたらすかどうかを探求します。具体的には、Two-step RaRのプロンプト(2.2)を使用して、GPT-4に質問を言い換えさせ、その出力を同じプロンプト(2.2)に二回目と三回目の言い換えのためにフィードバックします。表4では、「エイブラハム・リンカーンは偶数日に生まれましたか?」という例題を用いて、GPT-4による三回の連続自己言い換えを異なるランで検討します。ここで明確にすべきキーとなる概念は「偶数日」というものです。人間は「偶数日」が月の日にちが偶数かどうかを指すと理解しますが、LLMは週または年の偶数日と解釈する可能性があります。私たちは、GPT-4が初回の試みでこの概念を明確にしないことがある一方で、三回目の言い換えにより、「偶数日」という概念に対する一貫した説明に収束することを観察します。同時に、質問は複数回の言い換えを経ると、より詳細になっていきます。これにより、以下の重要なメッセージが伝えられます。
ポイント
GPT-4は、初回の試みで成功しなかったとしても、複数回の言い換えによって概念を明確にする可能性があります。
4. Chain-of-Thoughtとの比較
このセクションでは、RaRとCoTを比較します。まず、RaRとCoTの数学的な定式化を提示し、それらを比較します。次に、実験結果を提示して、(1) RaRがゼロショットCoTが効果的でないシナリオで改善を提供し、(2) RaRが数ショットCoTの固有の短所を扱い、修正することを示します。
4.1 数学的定式化
この小節では、CoTとRaRの定式化について議論します。LLMモデルをpLLMと表します。詳細には、LLMはプロンプトとしてxのシーケンスを取り、pLLM(·|x)の分布に従って文を生成します。最近、生成されたテキストの品質を向上させるための指示の使用に重点を置く研究努力が顕著になっています。数学的には、pLLM(·|x)に従って直接応答を生成する代わりに、指示zによって拡張された異なるプロンプトxe = 【x, z】を使用して、pLLM(·|x, z)に従って異なる応答を生成することができます。私たちは、成功した指示zがLLMからより良い答えを引き出すことを可能にすると仮定します。この小節では、生成を目指すターゲット答えを表すために記号yを使用します。記号y′は、望ましい答えyだけでなく、基礎となる推論などの追加の詳細を含む拡張されたテキストを表すために使用されます。しばしば、y′はChain of Thought(CoT)などの指示を使ったプロンプトによって生成されます。
CoTの背後にある中核概念は、y′に中間CoTステップと最終回答yを含むテキストを生成することです。特に、
https://scrapbox.io/files/65b1ee143e762e00253f37fc.png
ここで、s1, ..., smは最終回答yに進むための中間CoTステップです。本質的に、CoTは以下の主要なフェーズで構成されます。
https://scrapbox.io/files/65b1ee3482dbd9002697215e.png
Zero-Shot CoTの場合、指示zcは「ステップバイステップで考えてみよう」といったタスクに依存しないトークンで構成されます。Few-ShotCoTの場合、指示/コンテキストzcはいくつかのタスク依存トークンで構成され、それには例えばzc = 【x1, y′1, x2, y′2, ..., xk, y′k】のような複数の例が含まれます。ここでkはコンテキスト内の例の数、すなわち{(xi, y′i)}ki=1です。ゼロショットCoTと数ショットCoTの例を以下に示します。 https://scrapbox.io/files/65b1ee87aff6e400254e638b.png
4.1.2 1-step RaR
私たちの(1-step)RaR方法の基盤はCoTとは異なります。私たちは、元の質問xと同じ意味内容を保持しつつ、それに関連する答えyを得るために、言い換えられた質問x′を生成します。具体的には、y′を
https://scrapbox.io/files/65b1eeb7aff6e400254e68f5.png
と定義します。ここで、x′は答えyを引き出す言い換えられた質問です。特に、RaRは主に2つの段階で構成されます:
https://scrapbox.io/files/65b1eed0802c6b00255eb2fe.png
以下に(一歩進んだ)RaRの例を示します。
https://scrapbox.io/files/65b1ef0136a0a90023d61a5a.png
https://scrapbox.io/files/65b1ef07708b550025ac5e57.png
CoTの(4.1)で示されたように、多くの中間ステップs1, . . . , skを生成するのではなく、RaRの(4.2)は、効率的に改善された質問x′を考案することを目指しています。この意味で、私たちの方法であるRaRは、トークンの使用量の観点からCoTよりもコスト効果が高いです。
4.1.3 2-step RaR
答えyを含む拡張テキストy′を生成するのではなく、二歩進んだRaRアプローチは、連続的な方法で動作します。具体的には、まず、言い換えLLM(LLM1と表記)を使用して、言い換えられた質問x′を生成します。次に、元の質問と言い換えられた質問の両方を応答LLM(LLM2と表記)に入力して、答えを生成します。
https://scrapbox.io/files/65b1ef3e88a4170028089066.png
以下に二歩進んだRaRの例を示します。
https://scrapbox.io/files/65b1ef522d64170025328e87.png
その後、【x, x′】をLLMに入力し、y = "いいえ"を得ます。
私たちの実験では、二歩進んだRaRが一貫して優れたパフォーマンスを達成することがわかります。言い換えられた質問は、別のLLMでも使用できるため、私たちのRaR方法はより柔軟性があります。
4.1.4 RaRとCoTの組み合わせ
さらに、私たちの方法はCoTを補完し、自然にCoTと組み合わせることができます。ゼロショットCoTの場合、2つの指示を単に連結して、z′r = 【zr, zc】とすることができます。たとえば「上記の質問を考慮して、より良い回答ができるように質問を言い換えて拡張し、最後にステップバイステップで答えてみましょう」です。数ショットCoTの場合、指示/コンテキストはzc = 【x1, y′1, x2, y′2, . . . , xk, y′k】ですが、二歩進んだRaRを使用して、その数ショットの例を以下の手順で改善することができます。
https://scrapbox.io/files/65b20229d4c3470024464004.png
注4.1。2-step RaRは、元の質問xと言い換えられた質問x′の両方を使用してLLMに応答を生成させるのに対し、RaR+CoTは、元のFew-Shotの例zcと組み合わせるのではなく、言い換えられたFew-Shotの例z′cだけを使用します。これによりトークンの使用量を節約し、コンテキスト内の例の数を増やさずに、同様のパフォーマンスを維持することができます。以下の例は、RaRをCoTと組み合わせる方法を示しています。 https://scrapbox.io/files/65b202abf343780026041d52.png
私たちの実験によると、RaRとFew-Shot CoTの統合により、CoTのパフォーマンスが大幅に向上します。結果に関する包括的な議論はセクション4.3にあります。最後に、CoTとRaRの数学的定式化の図を、Figure 7に示します。 https://scrapbox.io/files/65b20314f834be002548d228.png
4.2 ゼロショットCoTとの経験的比較
ゼロショットCoTは、クエリに「ステップバイステップで考えてみましょう」という指示を追加することで、推論タスクにおけるLLMのパフォーマンスを効果的に向上させることが広く知られています。しかし、ゼロショットCoTが改善をもたらすことができず、時にはパフォーマンスが低下する例もあります。対照的に、RaRは一貫して効果を示しています。また、質問の品質の重要性を例で強調し、モデルの推論能力を高める前に優先して考慮すべきであることを示します。
最後に、私たちの方法はゼロショットCoTを補完し、単に「ステップバイステップで考えてみましょう」と(2.3)または(2.1)に追加することで組み合わせることができます。
課題
Allen-ZhuとLi(2023)によって紹介された中国語の成語課題、特に最も難しい最初の文字を推測する課題を検討します。この課題では、広く認識されている4文字の中国語の成語を取り、それぞれの位置の1文字をマスキングします。課題は、LLMがマスキングされた文字を正確に推測することです。GPTモデルは、特に最初の位置にある場合、マスキングされた文字を推測することに苦労していることがわかっています。さらに、Nadeemら(2021)によるStereoSet課題も使用します。これは、性別、人種、職業、宗教に関するLLMの固定観念的なバイアスを評価します。文間データから、コンテキスト文と3つの選択肢(1つの固定観念的なもの、1つの反固定観念的なもの、1つの無関係なもの)を含む220の例をサンプルします。Shaikhら(2022)が使用したプロンプト形式を採用しています。
評価
中国語の成語課題については、GPT-4の回答のゼロショット精度を、自動精度推定およびさらなる手動チェックで評価します。StereoSetについては、Nadeemら(2021)が示唆するように、2つの重要な評価指標を考慮する必要があります。一つは、LLMが無関係な選択肢よりも関連する選択肢を選ぶかどうかを評価する言語モデリングスコア、もう一つは、モデルが固定観念的な選択を反固定観念的な選択よりも好むデータの割合を定量化するステレオタイプスコアです。著者らによって特定されたように、理想的なモデルは、固定観念的または反固定観念的な関連付けのいずれにも偏らないため、ステレオタイプスコアの最適スコアは0.5になります。GPT-4の出力を検討した結果、2つの関連する選択肢のいずれもコンテキスト文から単独で結論付けることができないことを実際に判断できることがわかります。その結果、このような出力を公正な応答として分類し、言語モデリングスコアを補完する公正スコアを導入します。公正スコアは、これらの応答の割合によって決定されます。以下は、そのような応答の例です。
質問からは、選択肢AとCの正確さを決定するのに十分な情報が得られません。選択肢Bは与えられたコンテキストと関係ありません。したがって、利用可能な情報に基づいて最も妥当な答えとして提供された選択肢を選ぶことはできません。
結果
表5に示されるように、RaRはLLMのパフォーマンスを向上させるものの、中国語の成語課題の最初の文字を正確に推測することは依然として課題です。そこで疑問が生じます:他の推論タスクでのように、Zero-Shot CoTはこのような難しいタスクでLLMに一貫して改善を提供するのでしょうか?私たちの発見は、実際にはゼロショットCoTは、LLMが中間ステップで幻覚を作る傾向があるため、このような難しい課題(31.43%)で悪化する可能性があることです。これは、Zhangら(幻覚雪だるま論文)によって記述された幻覚スノーボールに類似しています。 https://scrapbox.io/files/65b20938136abb0024fea119.png
さらに、Shaikhら(2022)が他の言語モデルで発見したように、Zero-Shot CoTは、偏見や有害性に向けた望ましくない推論を引き起こす可能性があります。また、表5では、GPT-4がStereoSetでのパフォーマンスを示しています。ゼロショットCoTが言語モデリングスコアを改善することに失敗する一方で、Rephrase and Respond (RaR)によって、それを大幅に97.73%まで向上させることができることがわかります。これは、RaRを使用すると、LLMは無関係な選択肢をほとんど選ばないことを意味します。さらに、ゼロショットCoTが公正な回答(どちらも選ばない)の割合を向上させる一方で、RaRは最高のパフォーマンスを達成します。 質問の品質は推論よりも重要
次の例を用いて、モデルの推論を改善する前に、質問の品質に注意を払うことがより重要であることを強調します。元のコインフリップの質問を検討します。具体的には、次のような質問があります。
コインは表向きです。aluinoがコインを投げます。arthorがコインを投げます。コインはまだ表向きですか?この質問は、もともと人間によって作られたもので、人間の解釈者にとっては、「コインを投げる」とはコインを反転させることを意味しているように思えます。しかし、GPT-4のようなLLMは、コインの投げをランダムな投げと捉える可能性があります。
Figure 8に示されているように、この誤解はLLMにステップバイステップで考えるように促しても続き、その結果、誤った回答につながります。フリップが反転を意味すると明記する文章を追加すると、GPT-4はようやく私たちが望むように質問に答え始めます。この明確化も人間によって作成されているため、LLMは依然として74.55%という不満足なパフォーマンスを示します。自己言い換えされた質問により、精度を最終的に97.73%まで向上させることができます。このような例を踏まえて、LLMを評価する際には、人間によって作成された質問を慎重に検討し、公正な評価のために曖昧さを取り除くことが必要であると主張します。
https://scrapbox.io/files/65b20f01708b550025afb913.png
4.3 数ショットCoTにおける経験的改善
Few-Shot CoT (Chain-of-Thought)は、最も効果的なCoT技術とされています。これは、少数の人間によって作成されたQAの例を使用して、LLMが同様の質問に一致する構造で対応するのを支援します。特にGPT-4のような進んだモデルのLLMは、提供された例から外挿して新しい質問に対するパフォーマンスを向上させるのが得意です。質問・回答のペアを提供することは、人間が望む論理構造をLLMに効果的に伝えます。数ショットCoTは、質問をLLMが最も受け入れやすいものに合わせるのではなく、提供された人間の論理を使って推論するようにLLMを導きます。しかし、一つの懸念が浮上します:人間によって作成された例が不完全であったり、誤りを含んでいたりした場合、LLMはどのように反応するのでしょうか?最近の並行研究(Pawelczyk et al.、2023)によって裏付けられたように、私たちも同様に、LLMが悪い数ショットの例の影響を受ける可能性があることを観察しました。 課題
Last Letter Concatenation課題を再検討し、Wei et al.(2022)で提供された数ショットの例を参照します。Figure 9に示されているように、これらの例は特定の論理に従っています:(1)最初の単語の最後の文字を取得する;(2)2番目の単語の最後の文字を取得する;(3)これらの文字を連結する;その結果、(4)答えとなります。このような数ショットの例が言語モデルのパフォーマンスを最も効果的に向上させることが示されており、2つの単語の最後の文字を連結する際には100%の精度を達成しています。逆に、次の論理を採用した例を探索します:(1)最初の単語の最初の文字を取得する;(2)2番目の単語の最初の文字を取得する;(3)これらの文字を連結する;最後の文字の連結のために、(4)答えを提供する。私たちの目的は、この代替の数ショットのプロンプトが、元のプロンプトと正しい答えに類似した論理を持ちながら、GPT-4のパフォーマンスにどのような影響を与えるかを調査することです。 https://scrapbox.io/files/65b212752a50670026c86db9.png
結果
Figure 9に示されているように、GPT-4は私たちが変更したプロンプトの論理に固執する傾向があり、結果として誤った回答になります。それはすべての最初の文字を正確に連結しますが、最終的にはどうやら任意の最終回答に結論づけます。表6では、このような例を使用した1ショットおよび4ショットCoTの結果を示しています。
1ショットCoTのパフォーマンスは、わずか1つの不完全な例で明らかに低下していることがわかります。これらの不完全な例の数が増えるにつれて、4つの単語の最後の文字の連結における4ショット設定でのGPT-4のパフォーマンスは、わずか52.27%に低下します。この観察は、数ショットCoTを使用する際の潜在的な落とし穴を明らかにします:これらの例がユーザーによって作成されているため、その品質が非常に重要です。一方で、私たちはRaRが与えられた例の論理における落とし穴を修正することでGPT-4をサポートできることを発見しました。
https://scrapbox.io/files/65b2137acfd7980023e5f016.png
5 関連研究
5.1 LLM用のプロンプト手法
最近のLLMの登場以来、LLMのプロンプトエンジニアリングに関する研究が増えています。ユーザーがプロンプトの設計と改訂をガイドするための手動ガイドラインが登場しています。特に、「あなたは常に説明を提供する親切なアシスタントです」といったよく作られたシステムメッセージが主なクエリの前に置かれると、LLMがより専門的な知識で応答するよう促すことが研究で示されています(Mukherjee et al., 2023; Ateia and Kruschwitz, 2023)。OpenAI(2022)も、クエリの作成に関する一般的な推奨事項を提供し、特定性、詳細、精度を強調しています。しかし、個人はしばしば自分の質問を明確にしたり、LLMに必要な詳細を含めたりすることに苦労します。
その後の研究(Zhou et al., 2022b; Sorensen et al., 2022; Pryzant et al., 2023)は、プロンプトの自動改善に焦点を当てています。これらの方法は、複数のLLMを使用して候補プロンプトを生成し、評価し、スコアを付け、満足のいくプロンプトが得られるまで反復的に改善することが多いです。プロンプトの評価は、通常、LLMの応答の正確さ(監視、Zhou et al. (2022b); Pryzant et al. (2023))または質問の相互情報(非監視、Sorensen et al. (2022))に依存します。繰り返し計算の性質と質的評価の必要性から、これらの方法は単一のプロンプトテンプレートの改善に使用されます。すべての質問に一般的に適用することはコストがかかります。そのため、これらの技術は日常のユーザーケースであまり採用されていません。
最も頻繁にユーザーによって使用され、私たちのアプローチと密接に関連する方法は、ゼロショット(Kojima et al., 2022)または数ショット(Wei et al., 2022)のChain-of-Thought(CoT)プロンプトです。評価や反復的な選択が必要でないため、これらの技術は広く普及し、一連の後続研究を触発しています。しかし、CoTメソッドには限界があります。最近の調査では、Zero-Shot CoT(CoTによる不誠実な説明論文)と数ショットCoT(Pawelczyk et al., 2023)の信頼性に関する課題が浮き彫りになっています。最近では、Zhou et al.(2023)が提案したタスク「Thinking for Doing(T4D)」を目標としたゼロショットプロンプト手法であるForesee and Reflectを提案しています。最後に、私たちの方法は上記のすべてのプロンプト技術を補完し、それらと組み合わせることができるという点に注意する価値があります。 5.2 LLM用の自己修正手法
別の研究路線は、LLMが自分自身の応答を改善することを目的としています(Madaan et al., 2023; Welleck et al., 2022; Kim et al., 2023; Pan et al., 2023; Shinn et al., 2023)。これには「自己修正」、「自己改善」、「自己批判」といった用語が含まれ、LLMがさまざまなフィードバックソースや批評モデルに基づいて自分の応答を改訂する概念です。Pan et al.(2023)によると、自動批評モデルは一般的に、LLMの自己フィードバック(Self-Refine論文; Reflexion論文., 2023; Yan et al., 2023)、他の訓練されたLLM(Yang et al., 2022;)、または外部リファレンス(Jung et al., 2022; Gao et al., 2023; Yu et al., 2023; Welleck et al., 2022)を使用しています。しかし、最近の研究(Huang et al., 2023; Stechly et al., 2023)は、LLMの自己修正能力を検討し、LLMが推論プロセスを自己修正することができない可能性があることを示唆しています。彼らの発見は、自己修正がSelf-Consistencyよりも優れていないことを示しています(Self-Consistency論文)。LLMに自分の応答を自己改善させることとは対照的に、私たちの方法論は、LLMに人間によって作成された元の質問を言い換えさせます。 6 結論
本論文では、人間とLLMの間で発生する既存の誤解を調査し、人間には明確に見える質問がLLMによって誤解される可能性があることを示しました。この洞察に基づき、質問を回答する前にまず言い換えて明確化する新しいアプローチであるRephrase and Respond(RaR)を導入しました。また、質問を言い換えるLLMを使用して、その後に任意の応答LLMによって使用される質問を洗練するRaRのバリエーションであるTwo-step RaRも提示しました。ベンチマークデータセットの範囲で行われた私たちの実証的評価は、提案された方法の有効性を確認しています。さらなる分析により、すべてのモデルが質問の言い換えによって性能が向上する一方で、より洗練されたモデルがより顕著な改善を示すことが明らかになりました。重要なことに、言い換えによって達成された質問の品質の向上は、モデル間で移転可能であることがわかりました。これらの発見に加えて、数学的な定式化と実証的な調査を通じてCoTメソッドとの比較を行いました。また、RaRがCoTを補完し、さらなるパフォーマンス向上を達成するために活用できることも示しました。